تشخیص بر خط دستنوشته فارسی مبتنی بر روش های یادگیری

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر
  • نویسنده محمدعلی بزرگ زاده
  • استاد راهنما محمد رحمتی
  • تعداد صفحات: ۱۵ صفحه ی اول
  • سال انتشار 1386
چکیده

در این پایان نامه، ضمن بررسی تاریخچه و تعدادی از روش های متداول تشخیص برخط حروف و کلمات، یک سیستم تشخیص برخط کلمات فارسی، طراحی و پیاده سازی شده است. ورودی این سیستم توسط قلم نوری دریافت می شود. اخیراً بعلت فراگیر شدن دستگاه های کامپیوتر جیبی و تلفن های همراه پیشرفته، اهمیت چنین سیستمی، بیش از پیش مورد توجه قرار گرفته است. در روش پیشنهادی ما، عمل شناسایی دستنوشته، از طریق جستجوی پرتو انجام می شود. این جستجو بر روی فرضیه هایی که با جلو رفتن گام های زمانی تکمیل می شوند، انجام می شود. امتیازدهی به این فرضیه ها از راه یافتن فاصله dtw بدنه و علایم حروف منتسب شده در فرضیه با الگوهای نمونه ای دسته مربوطه شان انجام می پذیرد. در جستجوی پرتو، هرس کردن فرضیه ها، بسیار اهمیت دارد. به همین منظور، لیست نسبتاً جامعی از 15 تکنیک مرتبط با هرس و کنترل رشد بی رویه فرضیه ها، ارایه شده است که می تواند مرجع مناسبی برای کارهای بعدی در این زمینه باشد. برخی از این تکنیک ها، با توجه به ویژگی های خاص زبان فارسی و برای اولین بار، مطرح شده اند. هرچند برخی از این تکنیک ها بطور پراکنده در مقالات مختلف مطرح شده اند.در مرحله آموزش و آماده سازی سیستم، الگوهای نمونه ای برای دسته های مختلف بدنه و علامت حروف فارسی یافت می شود. الگوهای نمونه در هر دسته، می بایست طوری انتخاب شود که شامل انواع رسم الخط های نمونه آن دسته باشد. برای جمع آوری داده های آموزشی، از 160 نفر، هر کدام 34 کلمه و 32 حرف مجزای الفبای فارسی جمع آوری شد. از انواع سطح تحصیلات از دانش آموز گرفته تا دکترا، از سنین مختلف و جنسیت مرد و زن با انواع رسم الخط های نگارشی در بین این 160 نفر بوده اند. تقطیع کلیه این کلمات در مرحله آموزش برای جداکردن تکه های علایم و حروف هر کلمه بصورت دستی انجام پذیرفته است. سپس الگوهای نمونه ای در هر دسته با یک روش خوشه بندی پایین به بالا انتخاب شده است.در خوشه بندی، برای معیار فاصله، از همان معیاری استفاده می شود که در مرحله شناسایی نیز برای امتیازدهی به فرضیه ها استفاده می شود یعنی فاصله dtw که تغییراتی در روش کلاسیک آن، بوجود آمده است. تعریف ارایه شده برای فاصله بین دو الگو در dtw کلاسیک، به تعداد تارها حساس است. چنین تعریف فاصله ای بطور ضمنی باعث خواهد شد که به سمت ترازبندی هایی با تعداد تارهای کمتر تمایل ایجاد شود. برای حل این مشکل، تغییر کوچکی در الگوریتم داده شد بطوریکه بجای مینیمم کردن مجموع فواصل نقاط متناظر، میانگین فواصل نقاط متناظر مینیمم شود.در این پایان نامه، تعریف فاصله بین عناصر دو دنباله، بصورت تابعی غیرخطی از اختلاف زاویه می باشد. براساس خروجی تابع غیرخطی استفاده شده، هنگامیکه اختلاف زاویه کم باشد (خصوصاً کمتر از 27 درجه)، فاصله، بسیار کم (در حدود 0.02) می باشد که منطقی است زیرا انتظار داریم با اختلافات اندک زاویه بین نقاط متوالی دو دستنوشته که امری طبیعی است با اغماض برخورد شود و وقتی اختلاف زاویه بین دو الگو زیاد می شود، رشد فاصله بین دو الگو، تشدید گردد. همچنین در این کار، بمنظور کاهش تعداد دسته ها، برای حروفی که بدنه مشترک دارند دسته های بدنه، با هم ادغام شده است. تا جایی که ما اطلاع داریم، ایده نگاه جداگانه به بدنه حروف در 4 حالت اول، وسط، آخر و مجزا و ادغام دسته های بدنه مشترک، برای کاهش تعداد دسته ها در کار دیگری، مستندسازی نشده است.با تنظیم بهینه پارامترها، به نرخ تشخیص صحیح 84.38 % و میانگین زمان اجرای 5/7 ثانیه برای تشخیص یک کلمه می رسیم. بعنوان داده های آزمایشی، از داده هایی که از 8 نفر جمع آوری شده بود استفاده کرده ایم. هر فرد، 20 کلمه را می نویسد که بصورت تصادفی از یک فرهنگ لغت شامل 11900 لغت انتخاب می شود. چنانچه میانگین زمان اجرا از اهمیت بالایی برخوردار باشد، می توان بازاء کاهش اندک در نرخ تشخیص، میانگین زمان اجرا را تا حد زیادی کاهش داد. با تغییر اندک در مقادیر پارامترها، میانگین زمان اجرا 5 ثانیه کاهش می یابد و به 5/2 ثانیه تقلیل پیدا می کند درحالیکه از نرخ تشخیص صحیح، کمتر از 3% کاسته می شود و نرخ تشخیص صحیح به 81.88% می رسد. درصورتیکه، میانگین زمان اجرا، 1 ثانیه دیگر کمتر شود و به 5/1 ثانیه برسد، نرخ تشخیص صحیح برابر با 78.75% خواهد بود. تنظیمات اخیر، احتمالاً برای یک سیستم تجاری با محدودیت زمان اجرا مناسب تر است.از مزایای روش ارایه شده، می توان به سادگی پیاده سازی، امکان تنظیم دقت در مقابل سرعت شناسایی، امکان تطبیق با نویسنده، عدم وجود شرایط محدودکننده در نگارش کلمات، استفاده از تکنیک های فراوان برای کنترل رشد فرضیه ها و عدم وابستگی حداکثر مدت زمان لازم برای شناسایی کلمه به حجم فرهنگ لغات اشاره نمود.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

تشخیص دستنوشته برخط فارسی به کمک ویژگی های مبتنی بر شکل

در این تحقیق روشی برای تشخیص دستنوشته برخط فارسی مبتنی بر قطعه بندی زیر-کلمه به حروف و شناسایی حروف قطعه بندی شده با استفاده از مدل مخفی مارکوف گسسته ارائه شده است. تصویر متن تایپی یا دستنوشته به دلیل این که به صورت یکجا و بعد از نوشتن کامل آن در دسترس است برون خط نامیده می شود در حالی که دستنوشته دریافت شده توسط وسایل دیجیتال نظیر تبلت و تلفن همراه با صفحه لمسی به دلیل در دسترس بودن اطلاعات نو...

تأثیر نرم‌افزار چندرسانه‌ای آموزشی مبتنی بر رویکرد ساخت گرایی بر میزان یادگیری واژه ‏های پایه‌ی فارسی

کتاب‌های آموزش زبان، چه در حوزه‌ی آموزش زبان اول به کودکان و نوجوانان و چه در حوزه‌ی آموزش زبان دوم، می‌توانند به‌عنوان ابزاری مؤثر در انتقال ارزش‌ها، باورها، اعتقادات و دیدگاه مؤلفان‌شان به مسائل مختلف همچون مقوله‌ی جنسیت، محسوب شوند. بنابراین، توجه به بازنماییِ متعادل و برابرِ مصادیق و نمودهای جنسیتی در طراحی منابع آموزشی می‌تواند مسأله‌ای حائز اهمیت باشد. نظر به اهمیت این موضوع، پژوهش حاضر سعی...

متن کامل

ارائه ویژگیهای دیداری جدید در تصویر دستنوشته فارسی برای تشخیص روحیات افراد

در این مقاله، ویژگیهای دیداری جدیدی برای تشخیص روحیات افراد بر اساس دست نوشته فارسی پیشنهاد شده است. هدف این پژوهش این است که مشخصاتی که گرافولوژیستها در مورد مشخصات دست نوشته بیان می کنند را بتوان با کمک کامپیوتر براساس تصویر دست نوشته به طور خودکار استخراج کرد. بنابراین باید این مشخصات به صورت ویژگیهای دیداری قابل استخراج از تصویر بیان شوند. برای این منظور ابتدا تصاویر دست نوشته ها پیش پردازش...

متن کامل

یادگیری مبتنی بر عملکرد، یادگیری مبتنی بر تمرین و چالش های آن در پرستاری

مقدمه: از پرستاران فارغ  التحصیل انتظار می رود  که علمی کار کنند  و بر اساس دانش عمل نمایند. شاید امروزه  روش هایی مانند شبیه سازی، ایفاء نقش و تأکید بر دانش نظری در آموزش پرستاری مؤثر باشند، ولی توسعه ی دانش حرفه ای وابسته به تمرین در بالین است. در این مقاله به چالش های این راهکارها می پردازیم. روش کار: مقاله ی حاضر یک پژوهش مروری است که با جستجوی منابع کتابخانه ای و مقالات موجود در بانک های ...

متن کامل

مقایسه روش های یادگیری غیرنظارتی با تأکید بر تشخیص رخساره های کانالی تنگه هرمز

کانال‌ها از انواع رخساره‌های زمین‌شناسی می‌باشند که به‌دلیل توانایی در ذخیره سیالات هیدروکربنی، در اکتشاف و توسعه میادین هیدروکربنی دارای اهمیت فراوانی می‌باشند. در سال‌های اخیر، حجم داده‌های لرزه‌ای و همچنین تعداد نشانگرهای لرزه-ای ارائه‌شده افزایش چشمگیری داشته است که کار مفسرین را برای تفسیر خط به خط داده‌های لرزه‌ای با مشکل مواجه کرده-است. برای برطرف‌نمودن این مشکلات، الگوشناسی و استفاده از...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023